ヒストグラム

データのばらつきを見たい場合は,ヒストグラムを利用します.

環境構築

# Notebook初期設定
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

import warnings
warnings.filterwarnings('ignore')
import os
import pandas as pd
import plotly.express as px
DIR_IN = '../data/preprocess/out'
FN_WJ = 'wj.csv'
RENDERER = 'plotly_mimetype+notebook'

関数

def show_fig(fig):
    """Jupyter Bookでも表示可能なようRendererを指定"""
    fig.show(renderer=RENDERER)

データの読み込み

df = pd.read_csv(os.path.join(DIR_IN, FN_WJ))
df.head(2).T
0 1
cid C89412 C89712
creator 永井豪とダイナミックプロ ちばてつや
note 4色カラー NaN
epname 赤い嵐の巻 盗まれた金の巻
pageStart 7.0 39.0
pageEnd 37.0 53.0
miid M544830 M544830
cname ハレンチ学園 モサ
miname 週刊少年ジャンプ 1969年 表示号数20 週刊少年ジャンプ 1969年 表示号数20
datePublished 1969-11-03 1969-11-03
mcid C119459 C119459
issueNumber 24 24
numberOfPages 296.0 296.0
publisher 集英社 集英社
volumeNumber 2 2
price 90.0 90.0
editor 長野規 長野規

編集長

df_tmp = df.groupby('datePublished')['editor'].first().reset_index()
fig = px.histogram(df_tmp, x='editor')
show_fig(fig)

雑誌価格

fig = px.histogram(df, x='')
show_fig(fig)